5. Güncel Leaderboard Analizi: MMTEB (Multilingual, v2)

Güncel MMTEB (Multilingual, v2) leaderboard'unda toplam 399 model listelenmiş olup, sıralama Borda rank ile belirlenmiştir. Bu bölüm, leaderboard'un genel yapısını, üst sıraları ve görev türleri bazındaki performans örüntülerini analiz etmektedir.

5.1 Genel Sıralama — Top 20

Aşağıdaki tablo, leaderboard'un üst 20 modelini teknik özellikleri ve tüm görev türü skorları ile birlikte sunmaktadır.

Top 20 - Özet (okunabilir)

Rank (Borda) Model Zero-shot Active (B) Total (B) Dim Max Tok Mean(Task) Mean(TT)
1 harrier-oss-v1-27b 78% 25.599 27.009 5376 131072 74.27 64.2
2 KaLM-Embedding-Gemma3-12B-2511 73% 10.759 11.766 3840 32768 72.32 62.51
3 llama-embed-nemotron-8b 99% 6.98 7.505 4096 32768 69.46 61.09
4 Qwen3-Embedding-8B 99% 6.946 7.567 4096 32768 70.58 61.69
5 gemini-embedding-001 99% 3072 2048 68.37 59.59
6 Qwen3-Embedding-4B 99% 3.634 4.022 2560 32768 69.45 60.86
7 Octen-Embedding-8B 99% 6.946 7.567 4096 32768 67.84 60.28
8 F2LLM-v2-14B 88% 13.214 13.99 5120 40960 68.74 59.45
9 F2LLM-v2-8B 88% 6.947 7.568 4096 40960 68.09 58.99
10 harrier-oss-v1-0.6b 78% 0.44 0.596 1024 32768 69.01 59.0
11 Seed1.6-embedding-1215 89% 2048 32768 70.26 61.34
12 F2LLM-v2-4B 88% 3.634 4.022 2560 40960 67.06 58.25
13 jina-embeddings-v5-text-small ⚠️ NA 0.44 0.596 1024 32768 67.0 58.9
14 F2LLM-v2-1.7B 88% 1.41 1.721 2048 40960 65.21 56.78
15 harrier-oss-v1-270m 78% 0.1 0.268 640 32768 66.55 56.9
16 Qwen3-Embedding-0.6B 99% 0.44 0.596 1024 32768 64.34 56.01
17 jina-embeddings-v5-text-nano ⚠️ NA 0.113 0.212 768 8192 65.52 57.66
18 gte-Qwen2-7B-instruct ⚠️ NA 6.526 7.069 3584 32768 62.51 55.93
19 Linq-Embed-Mistral 99% 6.98 7.111 4096 32768 61.47 54.14
20 multilingual-e5-large-instruct 99% 0.304 0.56 1024 514 63.22 55.08

Top 20 - Retrieval / Similarity / Reranking

Rank (Borda) Model Bitext Retrieval STS Reranking
1 harrier-oss-v1-27b 86.02 78.27 79.99 67.35
2 KaLM-Embedding-Gemma3-12B-2511 83.76 75.66 79.02 67.27
3 llama-embed-nemotron-8b 81.72 68.69 79.41 67.78
4 Qwen3-Embedding-8B 80.89 70.88 81.08 65.63
5 gemini-embedding-001 79.28 67.71 79.4 65.58
6 Qwen3-Embedding-4B 79.36 69.6 80.86 65.08
7 Octen-Embedding-8B 80.35 71.61 81.27 67.64
8 F2LLM-v2-14B 77.15 66.5 76.97 70.49
9 F2LLM-v2-8B 75.96 66.15 76.47 70.34
10 harrier-oss-v1-0.6b 82.85 70.75 77.09 63.16
11 Seed1.6-embedding-1215 78.68 66.05 75.92 66.24
12 F2LLM-v2-4B 74.49 64.84 75.91 69.38
13 jina-embeddings-v5-text-small 69.71 64.88 78.85 65.66
14 F2LLM-v2-1.7B 73.18 61.97 75.77 67.17
15 harrier-oss-v1-270m 81.54 66.38 75.35 61.9
16 Qwen3-Embedding-0.6B 72.23 64.65 76.17 61.41
17 jina-embeddings-v5-text-nano 67.7 63.26 78.17 64.63
18 gte-Qwen2-7B-instruct 73.92 60.08 73.98 65.55
19 Linq-Embed-Mistral 70.34 58.69 74.86 64.37
20 multilingual-e5-large-instruct 80.13 57.12 76.81 62.61

Top 20 - Classification / Clustering / Instruction

Rank (Borda) Model Classification Multilabel PairC Clustering Instr. Rer.
1 harrier-oss-v1-27b 79.95 36.44 85.44 58.93 5.39
2 KaLM-Embedding-Gemma3-12B-2511 77.88 33.03 84.73 55.77 5.49
3 llama-embed-nemotron-8b 73.21 29.86 83.97 54.35 10.82
4 Qwen3-Embedding-8B 74.0 28.66 86.4 57.65 10.06
5 gemini-embedding-001 71.82 29.16 83.63 54.59 5.18
6 Qwen3-Embedding-4B 72.33 26.77 85.05 57.15 11.56
7 Octen-Embedding-8B 66.68 25.23 85.12 55.68 8.9
8 F2LLM-v2-14B 73.0 28.14 81.26 60.91 0.62
9 F2LLM-v2-8B 71.93 27.38 81.18 60.62 0.85
10 harrier-oss-v1-0.6b 73.88 26.37 82.07 54.0 0.81
11 Seed1.6-embedding-1215 76.75 46.16 85.5 56.78 -0.02
12 F2LLM-v2-4B 70.73 26.58 80.51 59.53 2.25
13 jina-embeddings-v5-text-small 71.32 41.97 82.93 53.41 1.35
14 F2LLM-v2-1.7B 67.68 26.04 79.87 58.77 0.56
15 harrier-oss-v1-270m 70.84 23.97 80.12 52.51 -0.47
16 Qwen3-Embedding-0.6B 66.83 24.59 80.83 52.33 5.09
17 jina-embeddings-v5-text-nano 69.18 41.31 81.94 52.73 0.05
18 gte-Qwen2-7B-instruct 61.55 25.48 85.13 52.77 4.94
19 Linq-Embed-Mistral 62.24 24.77 80.43 50.6 0.94
20 multilingual-e5-large-instruct 64.94 22.91 80.86 50.75 -0.4

5.2 Görev Türleri Bazında Performans Örüntüleri

Tam leaderboard verisi incelendiğinde, görev türleri arasında çarpıcı performans farklılıkları ortaya çıkmaktadır:

5.3 Model Aileleri ve Eğilimler

5.4 Leaderboard'un Uzun Kuyruğu (Long Tail)

399 modelin büyük çoğunluğu için tablo büyük ölçüde boştur. Yaklaşık 180. sıradan sonra modellerin çoğunda görev türü skorlarının hiçbiri raporlanmamıştır; bu modeller yalnızca model kartı bilgileriyle listelenmiş durumdadır.

Bu durumdan etkilenen örnekler:

5.5 Snapshot'tan Çıkarılacak Ana Bulgular